\section{Постановка задачи стохастического управления}
\setcounter{equation}{0}
 {\bf Постановка задачи стохастического
управления.}

Рассмотри линейную управляемую систему, состоящую из уравнений
динамики
\begin{equation}
x_{k+1}=A_kx_k+B_ku_k+w_k, ~~~k=0\ldots N-1 \label{b1}
\end{equation}
и уравнений измерения
\begin{equation}
y_k=C_kx_k+v_k, ~~~k=0\ldots N-1. \label{b2}
\end{equation}
$A_k, B_k, C_k$ - известные матрицы нужной размерности, $x_k\in
\mathbb{R}^n$ - состояния: $Ex_0=m, Dx_0=s_0$, $u_k\in
\mathbb{R}^p$ - управляющие параметры, $y_k\in \mathbb{R}^m$ -
измерения. $w_k, v_k$ - помехи: $Ew_k=0, Dw_k=M_k, Ev_k=0,
Dv_k=N_k$, независимые в совокупности, в том числе и от $x_0$.
$S_0, M_k$ - неотрицательно определены, $N_k$ - положительно
определена. \\
Действие системы характеризуется скалярной функцией потерь -
стохастической переменной
\begin{equation*}
l=x^T_NQ_0x_N+\sum_{k=0}^{N-1}\{x^T_kQ_k^{(1)}x_k+u_k^TQ_k^{(2)}u_k\}.
\end{equation*}
Матрицы $Q_0, Q_k^{(1)}$ - неотрицательно определены, $Q_k^{(2)}$
- положительно определена. Можно рассмотреть различные критерии
минимума стохастической переменной $l$, например: $l_1<l_2$,
если\\
$1) P(l_1<l_2)=1$ п.н.,\\
 $2) \max_{\omega}l_1<\min_{\omega}l_2$,\\
$3) El_1<El_2$.\\
 Выберем в качестве критерия
\begin{equation}
\min
El=E\{x^T_NQ_0x_N+\sum_{k=0}^{N-1}x^T_kQ^{(1)}_kx_k+u^T_kQ^{(2)}_ku_k\}.
\end{equation}
{\bf Задача.} \\
Найти допустимую стратегию управления системой (1), (2), которая
минимизирует критерий (3).\\
Прежде всего определим, что является \emph{допустимой стратегией
управления}. Для задачи стохастического управления в отличие от детерминированной
 задачи очень важно указать начальные условия для определения управляющего сигнала. \\
Различают два случая:\\
1) $C_k=I, v_k=0~ \forall k$, тогда уравнение (2) имеет вид
$y_k=x_k$. Это значит, что мы имеем \emph{полную информацию} о
состоянии системы, т. к. сигнал на выходе в момент $k$ дает точное
значение вектора состояния. В этом случае закон или стратегия
управления есть функция, отбражающая $\mathbb{R}^n$, пространство
состояний, в $\mathbb{R}^p$ - пространство управляющих параметров.
Заметим, что т. к. уравнение (1) есть стохастическое разностное
уравнение, то нельзя получить какую-либо дополнительную информацию
о будущем поведении системы по измерениям в прошлом, кроме
информации о $x_k$ в настоящем системы.\\
2) В большинстве задач переменные состояния точно не известны.
Такая ситуация называется случаем с \emph{неполной информацией о
состоянии}. В этом случае управляющий сигнал $u_k$ есть функция от
всех $y_s, s\leq k$, т. е. вектора $Y_k=[y_0\ldots y_k]^T$. Размер
пространства наблюдаемых сигналов растет с ростом числа измерений,
$\mathbb{R}^{km}\rightarrow\mathbb{R}^p$.\\
{\bf Статическая задача оптимизации.}\\
Рассмотрим задачу стохастической оптимизации без учета динамики
процессов. Причем рассмотрим для простоты скалярный случай $x\in
X, y\in Y$ - две скалярные случайные переменные на вероятностном
пространстве, $u\in U$ - управляющая переменная. $l$ отображает
$X\times Y\times U$ в $\mathbb{R}$. Среднее значение функции
потерь
\begin{equation}
El(x, y, u),
\end{equation}
где математическое ожидание берется по $x$ и $y$. \\
Рассмотрим задачу минимизации (4), начнем со случая {\bf полной
информации}
\begin{center}
\begin{displaymath}
\min_{u(x,y)}El(x,y,u),
\end{displaymath}
\end{center}
где $u(x,y):X\times Y\rightarrow U$. Справедлива следующая лемма.
\begin{lemma}
Пусть функция $l(x,y,u)$ имеет единственный минимум относительно
$u\in U ~\forall x\in X, y\in Y$. Пусть $u^0(x,y)$ - значение $u$,
при котором достигается этот минимум. Тогда
\begin{center}
\begin{displaymath}
\min_{u(x,y)}El(x,y,u)=El(x,y,u^0(x,y))=E\min_u l(x,y,u).
\end{displaymath}
\end{center}
\end{lemma}
Доказательство.\\
Для всех допустимых стратегий
\begin{center}
\begin{displaymath}
l(x,y,u)\geq l(x,y,u^0(x,y))=\min_u l(x,y,u),
\end{displaymath}
\end{center}
следовательно
\begin{center}
\begin{displaymath}
El(x,y,u)\geq El(x,y,u^0(x,y))=E\min_u l(x,y,u).
\end{displaymath}
\end{center}
Минимизируя левую часть неравенства по всем допустимым стратегиям,
получим
\begin{center}
\begin{displaymath}
\min_{u(x,y)}El(x,y,u)\geq El(x,y,u^0(x,y))=E\min_u l(x,y,u).
\end{displaymath}
\end{center}
Так как $u^0(x,y)$ - допустимая стратегия, то
\begin{center}
\begin{displaymath}
El(x,y,u^0(x,y))\geq \min_{u(x,y)}El(x,y,u).
\end{displaymath}
\end{center}
Лемма доказана.\\
Из леммы следует, что операция минимизации относительно допустимых
стратегий управления и математическое ожидание по совместному
распределению $x$ и $y$ неперестановочны.\\
Рассмотрим теперь случай с {\bf неполной информацией}. \\
В этом случае наша информация о состоянии ограничена измерением,
проведенным с ошибкой, и класс допустимых стратегий $u(y):
Y\rightarrow U$. В рассматриваемом случае выбор $u$ основывается
лишь на информации об $y$, т.е. $\min_{u(y)}El(x,y,u)$ -
минимизация только по функции $u(y)$.
\begin{lemma}
Пусть $E(\cdot|y)$ - условное математическое ожидание при
фиксированном $y$. Допустим, что функция $f(y,u)=E(l(x,y,u)|y)$
имеет единственный минимум относительно $u\in U, y\in Y$. Пусть
$u^0(y)$ - значение, на котором этот минимум достигается. Тогда
\begin{displaymath}
\min_{u(y)}El(x,y,u)=El(x,y,u^0(y))=E_y\{\min_uE[l(x,y,u)|y]\}.
\end{displaymath}
\end{lemma}
Доказательство.\\
Для всех допустимых стратегий
\begin{displaymath}
f(y,u)\geq f(y,u^0(y))=\min_uf(y,u).
\end{displaymath}
Следовательно,
\begin{displaymath}
El(x,y,u)=E_yf(y,u)\geq
E_yf(y,u^0(y))=El(x,y,u^0(y))=E_y\{\min_uE(l(x,y,u)|y)\}.
\end{displaymath}
Минимизируя левую часть по всем допустимым стратегиям, получаем
\begin{displaymath}
\min_{u(y)}El(x,y,u)\geq
El(x,y,u^0(y))=E_y\{\min_uE(l(x,y,u)|y)\}.
\end{displaymath}
Так как $u^0(y)$ - допустимая стратегия, то
\begin{displaymath}
El(x,y,u^0(y))\geq \min_{u(y)}El(x,y,u).
\end{displaymath}
Лемма доказана.\\
{\bf Замечания.}\\
1) $E(\cdot|y)$ - функция от $y$, операция $\min_uf(x,u)$
определяет функцию $X\rightarrow U$. Таким образом,
$\min_uE(\cdot|y): Y\rightarrow U$.\\
2) Операция минимизации по допустимым стратегиям $u:Y\rightarrow
U$ и операция условного математического ожидания перестановочны.\\
3) Из неравенства
\begin{displaymath}
\min_{u(y)}El(x,y,u)\geq \min_{u(x,y)}El(x,y,u)
\end{displaymath}
вытекает, что функция потерь в задаче с полной информацией не
больше функции потерь в задаче с неполной информацией.\newpage
{\bf Среднее значение квадратичной формы гауссовских случайных
переменных.}
\begin{lemma}
Пусть $x$ - гауссовский вектор со средним $m$ и ковариационной
матрицей $R$. Тогда $Ex^TSx=m^TSm+trSR$.
\end{lemma}
Доказательство.\\
$Ex^TSx=E(x-m)^TS(x-m)+Em^TSx+Ex^TSm-Em^TSm=m^TSm+E(x-m)^TS(x-m)=m^TSm+Etr(x-m)^TS(x-m)=EtrS(x-m)(x-m)^T+m^TSm=trSE(x-m)(x-m)^T+m^TSm=m^TSm+trSR$.
Лемма доказана.\\

\section{Два примера постановки задачи}
{\bf Задача 1.} \\
Пусть $u$ - вектор управления, $y$ - выходной сигнал, $x$ -
гауссовский, $Ex=m, Dx=R$. Векторы $x,y,u$ связаны равенством
$y=Au+x$. Рассмотреть линейную функцию потерь
\begin{displaymath}
l=q_0+q_1^Ty+q_2^Tu+\frac12y^TQ_1y+y^TQ_{12}u+\frac12u^TQ_2u.
\end{displaymath}
Определить стратегию управления $u$, минимизирующую среднее
значение функции потерь при отсутствии информации о состоянии ($u$
- функция только априорной информации), при наличии полной
информации о состоянии ($u$ - функция от $x$). Определить
минимальные средние потери в обоих случаях.\\


{\bf Задача 2.}\\
Предложенной выше моделью была описана американская экономика в
период депрессии.\\
$u_1$ - фонд зарплаты, $u_2$ - косвенные налоги, $u_3$ -
правительственные расходы на товары и обслуживание, $y_1$ - общее
потребление, $y_2$ - общие капиталовложения, $y_3$ - "переменное
распределение". Значения являются отклонениями от желаемых
величин. Были выбраны следубщие параметры:\\
\begin{displaymath}
\mathbf{A} = \left( \begin{array}{ccc}
0.666 & -0.188 & 0.671 \\
-0.052 & -0.296 & 0.259 \\
0.285 & 2.358 & -1.427
\end{array} \right),
\end{displaymath}

\begin{displaymath}
\mathbf{m} = \left( \begin{array}{c}
-5.39  \\
-3.704  \\
-0.729
\end{array} \right),
\end{displaymath}
$q_0=q_1=q_2=0, Q_1=Q_2=I, Q_{12}=0$. Определить оптимальное
управление в случае неполной информации о системе. Решение
Рузвельта: $u_1=0.54, u_2=-2, u_3=-1.14$.